包括机器学习在内的计算分析方法对基因组学和医学领域具有重大影响。高通量基因表达分析方法,例如微阵列技术和RNA测序产生大量数据。传统上,统计方法用于基因表达数据的比较分析。但是,针对样品观察分类或发现特征基因的分类的更复杂的分析需要复杂的计算方法。在这篇综述中,我们编译了用于分析表达微阵列数据的各种统计和计算工具。即使在表达微阵列的背景下讨论了这些方法,也可以将它们应用于RNA测序和定量蛋白质组学数据集的分析。我们讨论缺失价值的类型以及其插补中通常采用的方法和方法。我们还讨论了数据归一化,特征选择和特征提取的方法。最后,详细描述了分类和类发现方法及其评估参数。我们认为,这项详细的审查将帮助用户根据预期结果选择适当的方法来预处理和分析其数据。
translated by 谷歌翻译